智能论文笔记

Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using Deep Shape Priors

Cathrin Elich , Martin R. Oswald , Marc Pollefeys , Joerg Stueckler

分类：计算机视觉

2020-10-08

代表物体粒度的场景是场景理解和决策的先决条件。我们提出PrisMoNet，一种基于先前形状知识的新方法，用于学习多对象3D场景分解和来自单个图像的表示。我们的方法学会在平面曲面上分解具有多个对象的合成场景的图像，进入其组成场景对象，并从单个视图推断它们的3D属性。经常性编码器从输入的RGB图像中回归3D形状，姿势和纹理的潜在表示。通过可差异化的渲染，我们培训我们的模型以自我监督方式从RGB-D图像中分解场景。 3D形状在功能空间中连续表示，作为我们以监督方式从示例形状预先训练的符号距离函数。这些形状的前沿提供弱监管信号，以更好地条件挑战整体学习任务。我们评估我们模型在推断3D场景布局方面的准确性，展示其生成能力，评估其对真实图像的概括，并指出了学习的表示的益处。

translated by 谷歌翻译